iT邦幫忙

0

DAY4:LLM是怎麼學會語言的?(上)

2025-10-14 13:14:23118 瀏覽
  • 分享至 

  • xImage
  •  

LLM無法直接理解文字,因此我們需要先將文字轉換成數字(Token)。
Tokenization就是這個轉換過程,且不同模型會有不同的規則。


我們可以用tokenizer.vocab_size來查看欲使用的語言模型中token的數量,看它有多少token可以在文字接龍時進行選擇。
https://ithelp.ithome.com.tw/upload/images/20251014/20169372IzthhZYDkY.png


每一個token都有一個編號(從0開始)。
我們可以用tokenizer.decode這個函數將token編號轉成對應的文字。
https://ithelp.ithome.com.tw/upload/images/20251014/201693722nB9gVJW7b.png


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言